检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于改进Inception网络的语音分类模型

张秋余, 王煜坤

《计算机应用》唯一官方网站 2023, 43 (3): 909-915. DOI: 10.11772/j.issn.1001-9081.2022010047

摘要（339）

HTML （10）

PDF （1970KB）（98）

针对传统音频分类模型提取音频特征的过程繁琐，以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题，提出一种基于改进Inception网络的语音分类模型。首先，在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型，使网络模型在加深的同时避免梯度消失；其次，优化Inception模块中的卷积核大小，并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取，使模型通过自主学习的方式选择合适的卷积处理数据；同时，在深度与宽度两个维度改进模型以提高分类精度；最后，利用训练好的网络模型对语音数据进行分类预测，并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明，改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型，所提模型的分类准确率取得了最优，最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果，能够解决过拟合、梯度消失等问题。

图表 | 参考文献 | 相关文章 | 多维度评价